知识图谱 | 李诗良/李洪林团队发布最大的疾病—靶标知识图谱可视化平台eTSN

Li's Lab DrugAI 2023-06-05

华东理工大学药学院上海市新药设计重点实验李诗良/李洪林团队在Briefings in Bioinformatics上发表了文章e-TSN: an interactive visual exploration platform for target-disease knowledge mapping from literature，开发了目前最大的基于生物医学文本挖掘的可视化疾病—靶标知识图谱的多功能平台（e-TSN: the explorer for Target Significance and Novelty, http://www.lilab-ecust.cn/etsn/）。该平台对200多万篇生物医学全文文献中疾病-靶标关系数据进行提取，生成与药物-靶标-疾病相关的知识图谱，通过可视化表示，可为疾病提供潜在靶标谱，为靶标提供疾病谱，并关联已有和在研药物数据库，为寻找合适的靶点这一难点问题提供了实用的解决方案，同时也为数据驱动的靶点临床决策和新药研发立项提供了线索和理论依据。

研究背景

新药研发是一项耗时长、投资大、风险高的系统工程，平均耗资高达26亿美元，耗时10年之久。药物靶标发现作为新药研发的源头，对药物研发的成功率起到决定性作用^[1]。基于“新靶点、新机制”的药物发现已经成为现代药物开发的主流，对靶标和疾病、药物相互作用知识的了解对于开发新药和药物再利用至关重要，不仅可以促进人们在分子水平上对药物作用的理解，而且还有助于提高药物开发效率。据统计，全世界已知的疾病大约有3万种，人类基因/靶蛋白数量多达2万多种，但在已批准上市的药物中，涉及的靶标数量仅占人类蛋白的10%左右，大多针对肿瘤学、传染病、神经病学、免疫学和呼吸系统等治疗领域。因此，仍有一大部分治疗领域存在未被满足的临床需求，为其寻找新的治疗靶点和药物迫在眉睫。对于制药企业来说，寻找新的治疗领域或新靶点开展新的研发管线也十分重要^[2]。

研究人员在对感兴趣的疾病、靶标进行研究时离不开对相关文献知识的调研。然而，随着生物医学的快速发展，科学文献正以指数级的速度迅速增加，这极大地推动了靶标发现和识别过程，为科学家提供了寻找疾病-靶标相关性的机会。生物医学文献的显著增长使得科学家比以往任何时候都更难找到和吸收所有与他们的研究相关的文献，即便是业内的行家也无法完全依赖于传统的人工检索方式从中凝练出生物医学知识。

因此，如何从海量文本数据中自动、高效读取有价值信息成为有效获取靶标-疾病知识的关键。尽管目前已有多种文本挖掘算法用于自动从文本中提取关系，但在将这些信息与现有数据库相联系并转化为用户可以理解的知识之间仍存在很大的滞后。知识图谱（KGs）利用强大的算法系统地填补了靶标-疾病关系的未知区域，并对产生疾病的基因和机制提供了新的见解^[3]，可以为药物新靶标发现提供信息技术支撑。如何从海量非结构化的文本数据中提取潜在疾病-靶标相互作用信息；如何将从文本中提取的知识与现有数据库的知识相融合；如何可视化知识图谱以帮助用户研究见解是亟需解决的关键问题。

研究内容

作者开发的系统框架具体流程如图1所示。首先构建疾病、靶标实体名称组成的词典：疾病名称覆盖感染性疾病（Disease by infectious agent）、组织结构实体疾病（Disease of anatomical entity）、细胞增殖病（Disease of cellular proliferation）、代谢疾病（Disease of metabolism）、精神疾病（Disease of mental health）、遗传病（genetic disease）、身体紊乱（physical disorder）、综合征（syndrome）、罕见病（rare disease）共9类疾病，靶标名称涵盖酶（Enzyme）、表观遗传因子（Epigenetic）、G蛋白偶联受体（GPCR）、孤儿G蛋白偶联受体（oGPCR）、离子通道（Ion channel）、激酶（Kinase）、核受体（Nuclear receptor）、转录因子（Transcription factor）、转运蛋白（Transporter）以及尚未明确分类的靶标（Non-IDG）共10类蛋白家族。接着对获取的生物医学全文文献进行预处理；通过采用基于自然语言处理的命名实体识别和关系抽取技术对PubMed Central数据库中超过200多万篇生物医学全文文献中疾病-靶标关系数据进行提取。为了从数百万个文本中集成靶标和疾病的关系，作者首先定义了两个新型指标：1）重要性：用于衡量靶标和疾病两个实体之间的关联程度；2）新颖性：用于表示靶标被研究或未被研究的程度^[4]。通过构建新颖的基于文献统计学的重要性与新颖性评分方法加权整合了靶标和疾病的关联数据，并将其与先验的关系数据进行集成，构建了目前最大的疾病-靶标关系数据库，包含超过1.7万种疾病与大于2万种基因/蛋白质之间3亿多条潜在的关系；进一步整合DrugBank数据库中靶标与上市、在研药物关系、ChEMBL数据库中活性分子关系数据，构建疾病-靶标-化合物实体之间的关系网络，最终将关系数据通过网页可视化平台呈现以帮助研究者进行快捷的知识查询和探索。

图1 靶标-疾病知识图谱的交互式可视化平台e-TSN搭建流程

图2 e-TSN数据库统计分析

平台功能

e-TSN是一个可用于调查和分析靶标-疾病复杂网络的可视化工具，有助于研究人员了解疾病表型的潜在机制，提高药物的发现和开发效率，特别是当面对突发的传染病大流行如新冠^[5]、流感等紧急情况，其能为迅速发现有效药和特效药提供科学线索和技术平台支撑。1）用户可以通过检索感兴趣疾病的关键词（例如“SARS-CoV-2”），获得所有相关靶标的重要性和新颖性分布（图3），以帮助用户快速对潜在靶标进行优先级排序并选择最感兴趣的开展研究；同时，用户可以通过点击散点图面板上显示的任一靶标名称获得详细的注释信息，包括已批准和在研的药物和相关的生物活性分子，为靶标发现提供更充分的考量（图5）。2）反之，用户还可以探索与特定靶标相关疾病的重要性与新颖性分布（例如“ACE2”），以寻找与感兴趣的靶基因相关的其他适应症并进行药物重定位（图4）。

图3 e-TSN界面：与SARS-CoV-2相关靶点重要性与新颖性分布

图4 e-TSN界面：与ACE2相关疾病重要性与新颖性分布

图5 e-TSN提供有关靶标和疾病的全面信息

研究总结

综上所述，该团队提出了一种基于文献的知识合成和发现的新方法，构建疾病-靶标相互作用知识图谱，建立了一个交互式可视化平台e-TSN，通过知识图谱来捕获和表示疾病与靶标之间的关系，极大填补了靶标-疾病关系的未知区域，有助于理解疾病机理和表型，并结合现有的靶标-药物关系数据，对特定疾病新靶点选择、新药设计以及药物重定位具有较好的指导意义，可为现有的AI药物设计提供思路和指明方向，有助于进一步缩短新药从立项到临床周期，从而提高新药研发效率。

该工作的第一作者是华东理工大学的博士研究生冯紫燕同学，通讯作者为华东理工大学药学院李诗良副教授。相关算法和软件已申请软件著作权保护，该研究项目得到了国家自然科学基金的资助。

原文链接：https://doi.org/10.1093/bib/bbac465

参考文献

[1] Hurle, M., Nelson, M., Agarwal, P. et al. Impact of genetically supported target selection on R&D productivity. Nature Reviews Drug Discovery. 2016;15: 596–597.

[2] Kong L, Li Q, Kaitin KI, Shao L. Innovation in the Chinese pharmaceutical industry. Nat Rev Drug Discov. 2022 Oct 27.

[3] Fernández-Torras, A., Duran-Frigola, M., Bertoni, M. et al. Integrating and formatting biomedical data as pre-calculated knowledge graph embeddings in the Bioteque. Nat Commun. 2022; 13: 5304.

[4] Oprea TI, Bologa CG, Brunak S, Campbell A, Gan GN, Gaulton A, et al. Unexplored therapeutic opportunities in the human genome. Nature Reviews Drug Discovery. 2018;17:317-32.

[5] Gordon DE, Jang GM, Bouhaddou M, et al. A SARS-CoV-2 protein interaction map reveals targets for drug repurposing. Nature. 2020; 583: 459–468.

[6] Ziyan Feng, Zihao Shen, Honglin Li and Shiliang Li. e-TSN: an interactive visual exploration platform for target–disease knowledge mapping from literature. Briefings in Bioinformatics. 2022; bbac465.

供稿：冯紫燕

校稿：李诗良

编辑：毛丽韫

华东理工大学/上海市新药设计重点实验室/李洪林教授课题组

▼招聘博后▼

华东理工大学李洪林教授团队诚聘博士后

Li's Lab地址:上海市梅陇路130号电话：021-64250213课题组网站：http://lilab-ecust.cn/home/

长按扫码可关注

清华女神，34岁的美女博士县长，辞职了

薄公子低调成台湾女婿 23日已在台举办婚礼

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊

故宫蛇年限定款藏书票，错过再等12年！

知识图谱 | 李诗良/李洪林团队发布最大的疾病—靶标知识图谱可视化平台eTSN

您可能也对以下帖子感兴趣

清华女神，34岁的美女博士县长，辞职了

薄公子低调成台湾女婿 23日已在台举办婚礼

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊​

故宫蛇年限定款藏书票，错过再等12年！

生成图片，分享到微信朋友圈

知识图谱 | 李诗良/李洪林团队发布最大的疾病—靶标知识图谱可视化平台eTSN

您可能也对以下帖子感兴趣

你手放哪呢，出生啊